5. 2群の差の分析1
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
https://amzn.to/32dVAdF
心理学的知覚時間(聴音条件)
「音楽を聴きながら私はどれほど正確に時間の長さを評価できるだろう」
深呼吸して、30秒間を時計で確認(最初の1回だけ)
「歓喜の歌 ベートーベン交響曲第9番」を流す
スタートし、30秒間を過ぎたと思った時点でストップする(100分の1秒まで)
20回繰り返す
5.1 2群のデータとは
「知覚時間」の実験に聴音条件を加えた実験
このデータに大使、実時間30秒を基準点として1群の正規分布の推測を行うことも興味部会こと
聴音条件と何もしていない条件の差として考察することも同程度に興味深い
独立した2群(two independent groups)の差の推測
ここで独立とは、2群のデータが互いに影響し合わずに測定されているということ
実験群(experimental group)のデータ
ここでは「音楽を聴くこと」の効果を調べるための実験データ
処理(treatment, 処置・処遇)
実験群に対する働きかけ
ここでは「音楽を聴くこと」
対照群(control group, 統制群)のデータ
処理をしないデータ
処理以外は実験群と対照群の状態をできるだけ同一にすることが大切
実験群と対照群を使った実験は心理学だけではない
喫煙が肺がんに与える影響を調べるために、喫煙者達を実験群、非喫煙者を対照群と予備、肺がんの罹患数を比較する
処理に相当するのは暴露(exposure)という
ここでは「喫煙」
治療行為の効果を調べるためには治療群と、非治療群を比較する
処理に相当するのは介入(intervention)という
ここでは「治療」
性別による反応時間の違いを調べるために、男性群と女性群を比較する
処理に相当するのは属性(attribute)という
ここでは「性別」
5.1.1. 数値要約・図的要約
table: 表5-2 「知覚時間データ」の数値要約
統計量 平均 sd 分散 25%点 50%点 75%点
実験群 32.76 2.35 5.53 31.46 32.32 34.60
対照群 31.04 2.07 4.28 29.89 31.26 32.43
第5章から第8章までは、平均値の大きい群を第1群と呼び、平均値の小さい群を第2群と呼ぶ
ここでは第1群が実験群、第2群が対照群
1. データ分布の要約で学んだ1群のデータの場合には、図的要約としてヒストグラムを描くことが効果的だった
2群のデータの場合には、箱ひげ図(box-and-whisker plot, ボックスプロット box plot)を描くことが効果的
https://gyazo.com/946861ebeee70d538c0acc2e71c1a671
このように複数の群を並べて比較した図を特に平行箱ひげ図(parallel box-andwhisker plots)ということもある
箱ひげ図は、箱とその両側にでたひげで、データの分布を表現する
箱の上端は75%点、その箱の下端は25%点、箱内の横棒は50%点
四分位範囲(interquartile range)
75%点と25%点との差
四分位範囲の$ c倍以内で、それに最も近い内側の測定値までひげを引く
箱の端から四分位範囲の$ c倍以上の点は外れ値(outlier)と呼んで、測定値を打点する
ここでは$ c = 1.5とする
ただし箱ひげ図には様々な書き方のバリエーションがある
$ cの値を決めるのではなく、5%点と95%点までひげを引く流儀
外れ値は書かない流儀
外れ値を程度に応じて分類する流儀など
積率系の統計量ではなく、主として分位系の統計量で描かれることが、箱ひげ図の特徴
箱ひげ図を観察することにより、実験条件のほうが対照条件よりも平均的に測定時間が長いこと、ちらばりが大きいことがはっきりと見て取れる
測定時間が長いということは、30秒という実時間を短く知覚しているということであり、解釈的意味が測定時間と逆になることに注意する
5.1.2. リサーチクエスチョン
実験群と対照群の差とは
これは現実的要請に依存した問いであり、一意には定まらず、実はとても多様で豊かな目標を包含している
平均値の差は重要であるが、そればかりではない
以下のような研究上の問い(RQ., リサーチクエスチョン)がすぐに着想される
RQ.1 第1群の平均値が第2群の平均値より大きい確率
e.g. 音楽を聴いていると、退屈にならずに時間のたつのが早いかもしれない。実験群の平均時間が、対照群の平均時間より長い確率はどれほどだろう
RQ.2 第1群と第2群の平均値の差の点推定。平均値の差の区間推定
e.g. 実験群の平均時間は対照群の平均時間より何秒長いだろう。またその差はどの程度の幅で確信できるだろう
RQ.3 平均値の差の片側区間推定の上限・下限
e.g. 実験群の平均時間は対照群の平均時間より少なくとも何秒長いだろう。高々何秒長いだろう
RQ.4 平均値の差が基準点$ cより大きい確率
e.g. 平均値に差があるといっても、それが0.01秒では意味がないかもしれない。たぶんないだろう。たとえば実験群の平均時間が、測定単位である1秒以上、対照群の平均時間より長い確率はどれほどだろう
5.2. 2群の正規分布モデル
ベイズ統計学はベイズの定理を使用して現象のモデル化を行う
ベイズの定理は母数の事後分布を与えた
(2.15)式を再掲しておく
$ f(\bm \theta| \bm x) \propto f(\bm x| \bm\theta)f(\bm \theta)
事後分布は尤度と事前分布の積に比例する
5.2.1. 標準偏差が共通した正規分布モデル
属性(性別、地域、年齢……)・実験条件(温度、材料、時間……)・介入(学習法、治療法……)・暴露(嗜好、習慣、接触……)などにより、連続変数の測定値$ \bm xを
$ \bm x = (\bm x_1, \bm x_2) \qquad (5.1)
のように、2つの群に分けることができる場合がある
$ \begin{aligned} \bm x_1 &= (x_{11}, x_{12}, \cdots, x_{{1n}_1}) &= (32.30, 34.24, \cdots, 32.12, 31.81) &, \\ \bm x_2 &= (x_{21}, x_{22}, \cdots, x_{{2n}_{2}}) &= (31.43, 31.09, \cdots, 32.35, 31.57) \end{aligned} \qquad (5.2)
第1群のデータ数は$ n_1、第2群のデータ数は$ n_2である
知覚時間のデータでは$ n_1 = 20, n_2 = 20
ここでは第1群が実験群、第2群が対照群として説明を行うがどちらでもよい
共通した標準偏差$ \sigmaの正規分布(1.7)式に測定値が従っている
$ x_{1i} \sim N(\mu_1, \sigma), x_{2i} \sim N(\mu_2, \sigma) \qquad (5.3)
とすると、母数の集まりは
$ \bm\theta = (\mu_1, \mu_2, \sigma) \qquad (5.4)
まず、郡内・群間で測定が独立だとすると、(2.12)式に相当する尤度は
$ \begin{aligned} f(\bm x|\bm \theta) &= f(\bm x_1, \bm x_2| \mu_1, \mu_2, \sigma) \\ &= f(x_{11}|\mu_1, \sigma) \times \cdots \times f(x_{1n_1}|\mu_1, \sigma) \times f(x_{21}|\mu_2, \sigma) \times \cdots \times f(x_{2n_2}|\mu_2, \sigma) \qquad (5.5)\end{aligned}
これで尤度のパートは決まった
次に、母数は互いに独立であると仮定し、(2.14)式に相当する同時事前分布を導く
$ f(\bm\theta) = f(\mu_1, \mu_2, \sigma) = f(\mu_1)f(\mu_2)f(\sigma) \qquad (5.6)
これで事前分布のパートが決まった
最後に、(2.15)式に相当する事後分布を導く
$ f(\bm\theta|\bm x) = f(\mu_1, \mu_2, \sigma|\bm x_1, \bm x_2) \propto f(\bm x_1, \bm x_2|\mu_1, \mu_2, \sigma)f(\mu_1, \mu_2, \sigma) \qquad (5.7)
MCMC法を利用することにより、正規化定数は必要なくなり、母数の事後分布・生成量の事後分布・予測分布に従う乱数を生成することが可能になる
この場合、将来のデータは、$ \bm x^* = (x_1^*, x_2^*)であるから、(3.5)式に相当する2変数の事後予測分布は
$ x_1^{*(t)} \sim N(\mu_1^{(t)}, \sigma^{(t)}) \qquad (5.8)
$ x_2^{*(t)} \sim N(\mu_2^{(t)}, \sigma^{(t)}) \qquad (5.9)
という乱数列で近似される
また、(3.7)式に相当する条件付き予測分布は、何らかの推定値を用いて
$ f(\bm x^*|\hat\bm\theta) = f(x_1^*, x_2^*|\hat\mu_1, \hat\mu_2, \hat\sigma) = f(x_1^*|\hat\mu_1,\hat\sigma)f(x_2^*|\hat\mu_2, \hat\sigma) \qquad (5.10)
とする
5.2.2. 標準偏差が異なる正規分布モデル
前節では、2つの群の測定値の標準偏差$ \sigmaが、互いに等しいものとして仮定して論を進めてきた
しかし、表5-2では、実験群のsdは$ 2.35であり、対照群のsdは$ 2.07
ここでは標準偏差が群ごとに異なる正規分布モデルを紹介する
データの形式である(5.1)式、(5.2)式に変化はない
(5.3式)を2群の測定値が異なった標準偏差を持つ正規分布に従っているとする
$ x_{1i} \sim N(\mu_1, \sigma_1), x_{2i} \sim N(\mu_2, \sigma_2) \qquad (5.11)
(5.4式)の母数ベクトルは要素が1つ増える
$ \bm\theta = (\mu_1, \mu_2, \sigma_1, \sigma_2) \qquad (5.12)
まず、郡内・群間で測定が独立だとすると、(5.5式)に相当する尤度は以下になる
$ \begin{aligned} f(\bm x|\bm \theta) &= f(\bm x_1, \bm x_2| \mu_1, \mu_2, \sigma_1, \sigma_2) \\ &= f(x_{11}|\mu_1, \sigma_1) \times \cdots \times f(x_{1n_1}|\mu_1, \sigma_1) \times f(x_{21}|\mu_2, \sigma_2) \times \cdots \times f(x_{2n_2}|\mu_2, \sigma_2) \qquad (5.13)\end{aligned}
次に、(5.6)式に相当する同時事前分布を以下とする
$ f(\bm\theta) = f(\mu_1, \mu_2, \sigma_1, \sigma_2) = f(\mu_1)f(\mu_2)f(\sigma_1)f(\sigma_2) \qquad (5.14)
最後に、(5.7)式に相当する事後分布を導く
$ f(\bm\theta|\bm x) = f(\mu_1, \mu_2, \sigma_1, \sigma_2|\bm x_1, \bm x_2) \propto f(\bm x_1, \bm x_2|\mu_1, \mu_2, \sigma_1, \sigma_2)f(\mu_1, \mu_2, \sigma_1, \sigma_2) \qquad (5.15)
(5.8)式、(5.9)式に相当する事後予測分布は
$ x_1^{*(t)} \sim N(\mu_1^{(t)}, \sigma_1^{(t)}), x_2^{*(t)} \sim N(\mu_2^{(t)}, \sigma_2^{(t)}) \qquad (5.16)
という乱数列で近似できる
(5.10)式に相当する条件付き予測分布は何らかの推定値を用いて以下とする
$ f(\bm x^*|\hat\bm\theta) = f(x_1^*, x_2^*|\hat\mu_1, \hat\mu_2, \hat\sigma_1, \hat\sigma_2) = f(x_1^*|\hat\mu_1,\hat\sigma_1)f(x_2^*|\hat\mu_2, \hat\sigma_2) \qquad (5.17)
5.3. 母平均の差
属性差・条件差・介入差・暴露差など広い意味での処理差を評価したい場合には、まず母平均の差$ \mu_1 - \mu_2に関する推測が基本
母平均の差の事後分布は生成量
$ g(\mu_1^{(t)}, \mu_2^{(t)}) = \mu_1^{(t)} - \mu_2^{(t)} \qquad (5.18)
によって近似できる
近似された事後分布を要約して、点推定値、post.sd、確信区間、片側上限、片側下限の点を評価する(RQ.2, RQ.3)
生成量はMCMCからの母数の関数であることが明らかなので、以後$ g(\ )という関数表記を省略することがある
5.3.1. 母平均に差がある確率
「研究仮説$ U_{\mu_1>\mu_2}: 第1群の母平均のほうが第2群の母平均より大きい」
が正しい確率は、生成量
$ u_{\mu_1 > \mu_2}^{(t)} = \begin{cases} 1 & \mu_1^{(t)} - \mu_2^{(t)} > 0 \\ 0 & それ以外の場合 \end{cases} \qquad (5.19)
のEAPで評価する(RQ.1)
この方法は、伝統的な統計学における独立した2標本のt検定(t test for two independent samples)やウェルチのt検定(Welch's t test)に対するオルタナティヴ
5.3.2. 母平均に一定以上の差がある確率
研究仮説$ U_{\mu_1 > \mu_2}は実質科学的知見によらずに、おうなればオールマイティに設定できる命題
しかし差が正であれば、それがどんなに微小な差であっても、この命題は真になる
どちらが大きいかという定性的な性質にのみ興味がある場合以外は、これは実質科学的にしばしば不自然な研究仮説でもある
ここでもし、固有技術からの何らかの基準によって基準点$ cが定められるなら、それ以上の差があるときに実質的に差があると推測できる
ただし、基準点$ cは、しばしば統計学とは無関係にドメイン知識から定める
「研究仮説$ U_{\mu_1 - \mu_2 > c}:$ \mu_1と$ \mu_2の差は$ cより大きい」
が正しい確率は、生成量
$ u_{\mu_1 - \mu_2 > c}^{(t)} \begin{cases} 1 & \mu_1^{(t)} - \mu_2^{(t)} > c \\ 0 & それ以外の場合\end{cases} \qquad (5.20)
のEAPで評価する(RQ.4)
5.4. 分析
「知覚時間データ」に独立した2群の平均値差などの推測を行う
5.4.1. MCMC法のようす
母平均$ \mu_1と$ \mu_2と母標準偏差$ \sigmaの事前分布は、主観的にならないように十分に広い範囲の一様分布を設定し、MCMC法を実行する
具体的には長さ$ 21000のチェインを5つ発生させ、バーンイン期間を$ 1000とし、HMC法によって得られた$ 100000個の乱数で事後分布を近似した
各母数の$ \hat Rは、すべて$ 1.1以下であったので、事後分布へ収束していると判断した
5.4.2. 母平均の差
平均とsdと平均の差の事後分布と予測分布の推定結果を表5-3と表5-4に示す
表5-3が標準偏差が共通したモデル(以後, EQU)の結果
https://gyazo.com/fa74dfb646ce04f095c757cd1e5060a4
表5-4が標準偏差が異なるモデル(以後, DEF)の結果
https://gyazo.com/c5698b64be16c7f0ac0513bd304951d4
まず点推定値を観察する
EQUとDEFの順に
$ \hat\mu_1は$ 32.77, 32.76
$ \hat\mu_2は$ 31.04, 31.05
$ \hat\sigma_2は$ 2.35, 2.28
母平均の差は$ 1,73, 1.71
点推定にはEAPを用い、$ (\quad) で事後標準偏差を、$ [\quad] で95%の確信区間を表す
EQU
$ \hat\mu_1 は$ 32.77(0.54)[31.72, 33.85]
$ \hat\mu_2 は$ 31.04(0.53)[30.01, 32.08]
$ \hat\sigma は$ 2.35(0.28)[1.88, 2.97]
母平均の差は$ 1.73(0.75)[0.25, 3.22]
DEFの標準偏差
$ \hat\sigma_1 は$ 2.59(0.46)[1.87, 3.65]
$ \hat\sigma_2 は$ 2.28(0.41)[1.65, 3.23]
EQUの推定値は、DEFの推定値の間にある
図5-2には、$ \mu_1 - \mu_2の事後分布(EQU)を示した
https://gyazo.com/b6036ab5fd78dd3c67e7a7d697efe364
実験群の平均時間は対照群の平均時間より$ 1.73秒長く、95%の確信で$ 0.25秒から$ 3.22秒の区間にある(RQ.2への回答)
$ \mu_1 - \mu_2は、95%の確信で、少なくとも$ 0.49秒、高々$ 2.96秒である(RQ.3への回答)
5.4.3. 予測分布
点推定にはEAPを用い、$ (\quad) で標準偏差を、$ [\quad] で95%の確信区間を表す
EQUの場合
$ x_1^* は$ 32.76(2.42)[28.01, 37.54]
$ x_2^* は$ 31.04(2.42)[26.24, 35.83]
表3-2の予測分布と、ここでの$ x_2^*の予測分布はデータは共通しているけれども、第1群の標準偏差と共通させているため値が異なる
DEFの場合
$ x_1^* は$ 32.76(2.69)[27.42, 38.08]
$ x_2^* は$ 31.05(2.38)[26.35, 35.76]
表3-2の予測分布と、ここでの$ x_2^*の予測分布は、理論的には一致するはずであるが、乱数の違いによる差異が観察される
ただし、解釈に影響するほどではない
5.4.4. 差がある確率
(5.19)式と(5.20)式による平均値の差の確率を表5-5に示す
https://gyazo.com/c3202e21f10be9bbe5ad045de2261419
実験群の平均値が対照群の平均値より大きい確率は、EQUとDEFの順に$ 99\%, 98\%である(RQ.1への回答)
平均に差があるといっても、それが$ 0.01病では意味がないかもしれない
差の基準点を$ c=1とし、実験群の平均時間が、測定単位である$ 1秒以上、対照群の平均時間より長い確率は$ 84\%, 82\%である(RQ.4への回答)
放送授業
有意性検定
帰無仮説$ H_0: $ \mu_1 = \mu_2が真であると暫定的に仮定する
聴音状態と安静状態では『知覚時間』の母平均は等しい
検定仮説ともいう
分布が解明されている検定統計量であるt値を計算する
$ t値 = \frac{\bar x_1 - \bar x_2}{2群に共通の標準偏差} \times \sqrt{\frac{n_1 \times n_2}{n_1 + n_2}}
$ t値 = 2.39
平均値の差そのものが検定統計量になるわけではない
なぜこの式はt分布に従うのか
普通は教えない。暗
生成量なら定義式に従って計算するだけで、推測統計的考察が可能
p値を計算する
p値とは帰無仮説が真であるときにデータから計算したt値より甚だしいt値が観察される確率
p値は帰無仮説が真であるときにt値が$ |2.39|より大きくなる確率$ p = 0.022
2.2%
参照確率と比較する
$ p値 < 0.05ならば帰無仮説を棄却し、母平均は有意差ありと判定する
$ p値 < 0.05なので「知覚時間」の平均値に差があると判定する
p値の本来の意味を誤解してしまいがち
まとめ
帰無仮説が真であるときに、分布の形状が数学的に解明されており、有意性検定のために利用する統計量を検定統計量という
p値とは、帰無仮説が真であるときに、データから計算した検定統計量より甚だしい値が観察される確率である
有意水準とは、起きにくさの程度を予め定めた参照確率であり、$ 0.05が用いられることが多い
p値は、帰無仮説が正しい確率と勘違いされることが多い
→6. 差を解釈するための指標